
%Codificación Europeo occidental (ISO 8859-1)

%Se define el tamaño de la letra principal
\documentclass[12pt]{article}


\title{Trabajo Práctico de Introducción a Sistemas Inteligentes}
\author{Gonzalo Casey}


%------------Paquetes------------
%Define el tamaño de la pagina y sus margenes
\usepackage[a4paper,headheight=16pt,scale={0.7,0.8},hoffset=0.5cm]{geometry}

%Para el código fuente
\usepackage{listings}
\usepackage{color}
\definecolor{grisComentario}{gray}{0.4}

%Landscape
\usepackage{lscape}

%Idioma
\usepackage[latin1]{inputenc}
\usepackage[spanish]{babel}


%Letra arial
\usepackage{helvet}
%\renewcommand\familydefault{\sfdefault}

%Para tener encabezados y pie de pagina personalizados
\usepackage{fancyhdr}

%Para poner epígrafe en las imágenes
\usepackage[hang,bf]{caption}

%Para modificar las enumeraciones
\usepackage{enumerate}

%Para posicionar los figures
\usepackage{float}

%--------------------------------

%------------Gráficos------------
%Paquete de gráficos


\newif\ifpdf
\ifx\pdfoutput\undefined
	\pdffalse
\else
	\pdfoutput=1
	\pdftrue
\fi

\ifpdf
	\usepackage[pdftex]{graphicx}
	\pdfcompresslevel=9
\else
	\usepackage[dvips]{graphicx}
\fi

%Directorio de imágenes
\newcommand{\imgdir}{imagenes}
\graphicspath{{\imgdir/}}
%--------------------------------


%---------Documento---------

\begin{document}

%se define el encabezado a la derecha y que el pie de pagina muestre el número
\pagestyle{fancy}
\renewcommand{\sectionmark}[1]{\markboth{}{\thesection\ \ #1}}
\lhead{}
\chead{}
\rhead{\rightmark}
\lfoot{}
\cfoot{}
\rfoot{\thepage}

%----------------Carátula----------------

\begin{titlepage}
% Para que no tenga encabezado ni pie de pagina
	\thispagestyle{empty}

% Titulo
	\begin{center}
		\vspace{1cm}
		\Large{75.50 - Introducción a Sistemas Inteligentes}\\
		\vspace{7.5cm}
		\Huge\textbf{Trabajo Práctico N°4}\\
		\vspace{3cm}
		\Huge{Redes Bayesianas}
	\end{center}
	\vspace{5cm}

% Integrantes
	\large{
	\begin{flushleft}
		Integrantes
        \end{flushleft}
		\begin{tabbing}
			Berrueta Juan Manuel \hspace{2cm}\= 83153 \ \hspace{1.5cm}\= jmberrueta@gmail.com\\
			Casey Gonzalo Damián \> 85820\ \> gonzak6@gmail.com \\
		\end{tabbing}
	}
	\vfill

% Fecha o cuatrimestre

	\flushright{2\sptext{do} cuatrimestre 2011}
\end{titlepage}


%Para que las páginas comiencen a contar desde acá

% Declaro el índice

\tableofcontents
\newpage

%------------------------Comienzo del Informe----------------

\setcounter{page}{1}

%-------------------------------------------------------------------------------------------------------
\section{Enunciado}

\begin{enumerate}
	\item Aplicar el algoritmo de Redes Bayesianas (Clasificador Naive Bayes) de la aplicación Elvira, sobre la base de datos denominada "Anticonceptivos" (tanto la plantilla como la base de datos se encuentran en la pagina de la materia).
	\item Para el correcto uso del aplicativo consultar el "Tutorial sobre Análisis de Clasificadores Bayesianos" (disponible en la página de la materia).
	\item Se pretende que el alumno realice la preparación de los datos (Fase III - Preparación de los datos - Metodología CRISP - DM) que sea necesaria para el correcto procesamiento mediante la técnica de minería de datos.
	\item Una vez preparados los datos a procesar, se pretende con estos, que el alumno aplique el algoritmo y realice un informe donde indique:
	\begin{itemize}
		\item Descripción de los datos: cantidad de observaciones que se procesan, nombre de los atributos, rango de valores de cada atributo, descripción de los valores.
		\item Informe final con los resultados obtenidos: incluir en el informe los resultados que aporta la herramienta, sin evidencia y con evidencia sobre cada uno de los valores del atributo clase (tipo de anticonceptivo).
	\end{itemize}
\end{enumerate}

\newpage


\section{Descripción de los datos}
El dataset \emph{Anticonceptivos 2} contiene información sobre matrimonios y sus aspectos sociales, económicos y religiosos y el método anticonceptivo que utilizan. Contiene 1131 observaciones, con 9 atributos de los cuales no hay ningún valor desconocido. Los atributos se describen a continuación:
\begin{center}
	\begin{tabular}{ | c | c | p{2.5cm} | p{3.5cm} | }
%	|>{\centering\arraybackslash}p{2.5cm}|c|>{\centering\arraybackslash}p{2.2cm}|>{\centering\arraybackslash}p{3cm}|>{\centering\arraybackslash}p{3cm}|c|
	\hline
	\textbf{Atributo}&\textbf{Tipo}&\textbf{Valores}&\textbf{Descripción} \\ \hline
    EdadEsposa&numerico&20-40&Edad de la esposa \\ \hline
    NivelEducativoEsposa&categórico&1=bajo, 2=medio-bajo, 3=medio-alto, 4=alto&Nivel educativo de la esposa \\ \hline   
    NivelEducativoEsposo&categórico&1=bajo, 2=medio-bajo, 3=medio-alto, 4=alto&Nivel educativo del esposo \\ \hline
    CantidadHijosNacidos&numerico&0-12&Cantidad de hijos nacidos \\ \hline
    ReligionEsposa&binario&0=no\_islam, 1=islam&Religión de la esposa \\ \hline
    EsposaTrabaja&binario&0=si, 1=no&Establece si la esposa trabaja \\ \hline
    OcupaciónEsposo&categórico&1, 2, 3, 4&Ocupación del esposo \\ \hline    
    EstandarVida&categórico&1=bajo, 2=medio-bajo, 3=medio-alto, 4=alto&Estándar de vida \\ \hline    
    MetodoAnticonceptivo&clase&1=no\_usa, 2=largo\_plazo, 3=corto\_plazo&Método anticonceptivo utilizado \\ \hline
  \end{tabular}
\end{center}

Para completar la descripción del dataset se utilizó la información sobre un dataset similar en UCI denomidado Contraceptive.

\newpage

\section{Preparación de los datos - Aplicación de la Fase III de la Metodología CRISP-DM}

\subsection{Tarea 1: Selección de Datos}
Los criterios utilizados para la inclusión / exclusión de los datos fueron los siguientes:
\begin{itemize}
\item Con respecto a las filas, se utilizaron todas las filas de la tabla, dado que todos los registros tienen valores válidos y atributos conocidos, y se consideraronn de relevancia para el estudio.
\end{itemize}

\subsection{Tarea 2: Limpieza de datos}
La salida de esta tarea es el reporte de limpieza de datos:
\begin{itemize}
	\item Todos los registros están completos. 
	\item Todos los registros tienen valores válidos, conocidos y coherentes.
\end{itemize}

\subsection{Tarea 3: Construcción de datos}
\begin{itemize}
\item Atributos derivados: se decidió no agregar ningún atributo derivado de los ya existentes en la tabla, dado que se consideró que dichos atributos contienen toda la información de relevancia para el análisis.
\item Registros generados: se decidió no generar ningún registro nuevo.
\item Se transformarán los valores de los atributos EdadEsposa y CantidadHijosNacidos para representar rangos y poder uniformizar los resultados. Los rangos creados para EdadEsposa son 20-24, 25-29, 30-34 y 35-40. Los rangos creados para CantidadHijosNacidos son 0, 1, 2-3 y $\ge$4
\end{itemize}

\subsection{Tarea 4: Integración de datos}
\begin{itemize}
	\item Datos combinados: al estar el set de datos formado por una única tabla, no se puede juntar la información con las de otras tablas. No se calcularon valores nuevos a partir de varios registros. Por lo tanto, no se realizó integración de los datos.
\end{itemize}

\subsection{Tarea 5: Formateo de datos}
\begin{itemize}
	\item Datos formateados: aquí se incluyen todas las modificaciones sintácticas que se deben realizar a los datos, asi como lo requiera la herramienta de modelado. No es necesario realizar ningún formateo ni cambiar el orden de los registros.
\end{itemize}

\section{Resultados}
Aplicando el clasificador Naive Bayes con el programa Elvira, se pudo obtener la siguiente red:

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.55]{elvira}
\end{center}
\caption{Resultado de  Elvira}
\end{figure}

En el diagrama anterior se puede ver como todos los atributos dependen de una única raíz, siendo el atributo clasificador de MetodoAnticonceptivo.

\subsection{Método anticonceptivo}
No tiene padre dado que es padre del resto de los atributos. Sus estados son:
\begin{center}
\begin{tabular}{ | c | c | }
%	\begin{tabular}{ |>{\centering\arraybackslash}p{2.5cm}|c|>{\centering\arraybackslash}p{2.2cm}|>{\centering\arraybackslash}p{3cm}|c| }
	\hline
	\textbf{Estado}&\textbf{Probabilidad} \\ \hline
    no\_usa&39 \\ \hline
    largo\_plazo&22 \\ \hline
    corto\_plazo&39 \\ \hline
  \end{tabular}
\end{center}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{metodo_anticonceptivo}
\end{center}
\caption{Probabilidad de cada estado}
\end{figure}

\subsection{Edad de esposa}
La proporción de las edades de las esposa, agrupada según el método de anticonceptivo que utilizan, es:
\begin{center}
	\begin{tabular}{ | c | c | c | c | c | }
%	\begin{tabular}{ |>{\centering\arraybackslash}p{2.5cm}|c|>{\centering\arraybackslash}p{2.2cm}|>{\centering\arraybackslash}p{3cm}|c| }
	\hline
	\textbf{Estado}&\textbf{P. total}&\textbf{P. no\_usa}&\textbf{P. largo\_plazo}&\textbf{P. corto\_plazo} \\ \hline
    20-24&21&25&14&22 \\ \hline
    25-29&29&29&24&32 \\ \hline
    30-34&25&22&28&25 \\ \hline
    35-40&25&24&34&21 \\ \hline
  \end{tabular}
\end{center}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{edad_esposa_totales}
\end{center}
\caption{Probabilidad de edad de esposa}
\end{figure}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{edad_esposa}
\end{center}
\caption{Probabilidad de edad de esposa por estado}
\end{figure}

De estos valores se puede deducir que si el método anticonceptivo es no\_usa, la distribución de probabilidades es aproximadamente uniforme, por lo que la edad no parece ser un factor determinante del no uso de anticonceptivos.

Por otro lado, para el método largo\_plazo, a mayor edad, myor es la probabilidad de que se use dicho método.

Por último, para corto\_plazo, se ve un pico en la probabilidad para las edades entre 25-29 años, y para el resto de los rangos la probabilidad toma valores aproximadamente uniformes.

\subsection{Nivel educativo de esposa}
La proporción del nivel educativo de las esposas, agrupada según el método de anticonceptivo que utilizan, es:
\begin{center}
	\begin{tabular}{ | c | c | c | c | c | }
%	\begin{tabular}{ |>{\centering\arraybackslash}p{2.5cm}|c|>{\centering\arraybackslash}p{2.2cm}|>{\centering\arraybackslash}p{3cm}|c| }
	\hline
	\textbf{Estado}&\textbf{P. total}&\textbf{P. no\_usa}&\textbf{P. largo\_plazo}&\textbf{P. corto\_plazo} \\ \hline
    bajo&7&10&2&8 \\ \hline
    medio-bajo&24&31&12&25 \\ \hline
    medio-alto&29&30&25&31 \\ \hline
    alto&40&29&61&36 \\ \hline
  \end{tabular}
\end{center}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{nivel_educativo_esposa_totales}
\end{center}
\caption{Probabilidad de nivel educativo de esposa}
\end{figure}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{nivel_educativo_esposa}
\end{center}
\caption{Probabilidad de nivel educativo de esposa por estado}
\end{figure}

Aquí podemos ver que si el método anticonceptivo es no\_usa, la distribución de probabilidades es aproximadamente uniforme, con excepcion del niel educativo bajo, cuya proporción es mucho menor. Hay que tener en cuenta que dado que solo el 7\% de la población encuestada es de dicho nivel educativo por lo que dicho grupo es más suceptible a desvíos importantes.

Se ve también que, a mayor nivel educativo, mayor es la tendencia a usar métodos anticonceptivos de largo\_plazo.

Algo similar ocurre con los métodos anticonceptivos a corto\_plazo, aunque la tendencia en función del nivel educativo es mucho menos pronunciada.

Por último, se puede remarcar que en el nivel bajo de educación la proporción de gente que no\_usa métodos anticonceptivos es igual a la que si usa alguno. A medida que nos vamos moviendo hacia mayores niveles educativos, aumenta la proporción del uso de métodos anticonceptivos en comparación con el no uso.

\subsection{Nivel educativo del esposo}
La proporción del nivel educativo de los esposos, agrupada según el método de anticonceptivo que utilizan, es:
\begin{center}
	\begin{tabular}{ | c | c | c | c | c | }
%	\begin{tabular}{ |>{\centering\arraybackslash}p{2.5cm}|c|>{\centering\arraybackslash}p{2.2cm}|>{\centering\arraybackslash}p{3cm}|c| }
	\hline
	\textbf{Estado}&\textbf{P. total}&\textbf{P. no\_usa}&\textbf{P. largo\_plazo}&\textbf{P. corto\_plazo} \\ \hline
    bajo&2&3&3&1 \\ \hline
    medio-bajo&12&14&6&13 \\ \hline
    medio-alto&24&26&14&28 \\ \hline
    alto&62&57&77&58 \\ \hline
  \end{tabular}
\end{center}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{nivel_educativo_esposo_totales}
\end{center}
\caption{Probabilidad de nivel educativo de esposo}
\end{figure}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{nivel_educativo_esposo}
\end{center}
\caption{Probabilidad de nivel educativo de esposo por estado}
\end{figure}

Se puede observar que a medida que crece el nivel educativo del esposo, aumenta la tendencia a usar métodos a largo plazo, logrando un pico muy alto cercano al 80\% para el nivel alto.

En el resto de los casos (salvo el nivel bajo), es al revés: el método de largo\_plazo es el menos usado. Sin embargo, como en casos anteriores, hay que tener en cuenta que la proporción de personas encuestadas de dichos grupos es relaivamente baja, por lo que es esperable tenér desvíos grandes.

\subsection{Cantidad de hijos nacidos}
La proporción de la cantidad de hijos nacidos, agrupada según el método de anticonceptivo que utilizan, es:
\begin{center}
	\begin{tabular}{ | c | c | c | c | c | }
%	\begin{tabular}{ |>{\centering\arraybackslash}p{2.5cm}|c|>{\centering\arraybackslash}p{2.2cm}|>{\centering\arraybackslash}p{3cm}|c| }
	\hline
	\textbf{Estado}&\textbf{P. total}&\textbf{P. no\_usa}&\textbf{P. largo\_plazo}&\textbf{P. corto\_plazo} \\ \hline
    0&7&19&0&0 \\ \hline
    1&20&25&17&16 \\ \hline
    2-3&41&33&45&47 \\ \hline
    $\ge$4&32&23&38&38 \\ \hline
  \end{tabular}
\end{center}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{cantidad_hijos_nacidos_totales}
\end{center}
\caption{Probabilidad de cantidad de hijos nacidos}
\end{figure}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{cantidad_hijos_nacidos}
\end{center}
\caption{Probabilidad de cantidad de hijos nacidos por estado}
\end{figure}

Para este caso, es posible remarcar que dentro de los que usan métodos de largo plazo, la mayoría de los casos muestra que se tienen entre 2 y 3 hijos, pero que también hay un alto un numero que supera el 35\% de casos que tienen entre 4 o mas hijos. Esto está influenciado por la proporción de encuestados de cada grupo.

Por  otro lado, toda la gente encuestada que no tenia hijos no usaba métodos anticonceptivos.

Finalmente, al tener dos o más hijos, la gente se vuelca a los métodos anticonceptivos de corto y largo plazo para controlar la cantidad de hijos que van a tener ya que cuentan con por lo menos dos.

\subsection{Religión}
La proporción de la religión, agrupada según el método de anticonceptivo que utilizan, es:
\begin{center}
	\begin{tabular}{ | c | c | c | c | c | }
%	\begin{tabular}{ |>{\centering\arraybackslash}p{2.5cm}|c|>{\centering\arraybackslash}p{2.2cm}|>{\centering\arraybackslash}p{3cm}|c| }
	\hline
	\textbf{Estado}&\textbf{P. total}&\textbf{P. no\_usa}&\textbf{P. largo\_plazo}&\textbf{P. corto\_plazo} \\ \hline
    islam&85&88&79&87 \\ \hline
    no\_islam&15&12&21&13 \\ \hline
  \end{tabular}
\end{center}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{religion_totales}
\end{center}
\caption{Probabilidad de religión}
\end{figure}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{religion}
\end{center}
\caption{Probabilidad de religión por estado}
\end{figure}

En este caso, independientemente de las diferencias dadas la cantidad de encuestados de una religión u otra, el resultado presenta un distribución similar para los 3 métodos anticonceptivos, por lo que no aporta demasiada información.

\subsection{Esposa trabaja}
La proporción en función de si la esposa trabaja, agrupada según el método de anticonceptivo que utilizan, es:
\begin{center}
	\begin{tabular}{ | c | c | c | c | c | }
%	\begin{tabular}{ |>{\centering\arraybackslash}p{2.5cm}|c|>{\centering\arraybackslash}p{2.2cm}|>{\centering\arraybackslash}p{3cm}|c| }
	\hline
	\textbf{Estado}&\textbf{P. total}&\textbf{P. no\_usa}&\textbf{P. largo\_plazo}&\textbf{P. corto\_plazo} \\ \hline
    si&26&30&28&22 \\ \hline
    no&74&70&72&78 \\ \hline
  \end{tabular}
\end{center}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{esposa_trabaja_totales}
\end{center}
\caption{Probabilidad de si la esposa trabaja}
\end{figure}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{esposa_trabaja}
\end{center}
\caption{Probabilidad de si la esposa trabaja por estado}
\end{figure}

Al igual que el caso anterior, la similitud en los 3 métodos anticonceptivos, hace que no podamos extraer demasiada información.

\subsection{Ocupación de esposo}
La proporción de la ocupación del esposo, agrupada según el método de anticonceptivo que utilizan, es:
\begin{center}
	\begin{tabular}{ | c | c | c | c | c | }
%	\begin{tabular}{ |>{\centering\arraybackslash}p{2.5cm}|c|>{\centering\arraybackslash}p{2.2cm}|>{\centering\arraybackslash}p{3cm}|c| }
	\hline
	\textbf{Estado}&\textbf{P. total}&\textbf{P. no\_usa}&\textbf{P. largo\_plazo}&\textbf{P. corto\_plazo} \\ \hline
    1&27&23&44&22 \\ \hline
    2&28&31&22&28 \\ \hline
    3&43&44&32&48 \\ \hline
    4&2&2&2&2 \\ \hline
  \end{tabular}
\end{center}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{ocupacion_esposo_totales}
\end{center}
\caption{Probabilidad de ocupación de esposo}
\end{figure}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{ocupacion_esposo}
\end{center}
\caption{Probabilidad de ocupación de esposo por estado}
\end{figure}

Si bien es llamativo el pico del estado 1 en largo\_plazo, dada la falta de información sobre lo que representa cada categoría en la ocupación del esposo, nos es imposible derivar demasiadas conclusiones.

\subsection{Estándar de vida}
La proporción del estándar de vida, agrupada según el método de anticonceptivo que utilizan, es:
\begin{center}
	\begin{tabular}{ | c | c | c | c | c | }
%	\begin{tabular}{ |>{\centering\arraybackslash}p{2.5cm}|c|>{\centering\arraybackslash}p{2.2cm}|>{\centering\arraybackslash}p{3cm}|c| }
	\hline
	\textbf{Estado}&\textbf{P. total}&\textbf{P. no\_usa}&\textbf{P. largo\_plazo}&\textbf{P. corto\_plazo} \\ \hline
    bajo&9&13&3&8 \\ \hline
    medio-bajo&17&20&11&17 \\ \hline
    medio-alto&30&28&30&32 \\ \hline
    alto&44&39&56&43 \\ \hline
  \end{tabular}
\end{center}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{estandar_vida_totales}
\end{center}
\caption{Probabilidad de estándar de vida}
\end{figure}

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.6]{estandar_vida}
\end{center}
\caption{Probabilidad de estándar de vida por estado}
\end{figure}

En este caso se puede ver que, sea cual se al el método, mientras mas alto sea el estándar de vida, se da en mas proporción la elección de dicho método anticonceptivo. Esto se debe a las proporciones de la población en general.

Es notable que en métodos de largo plazo, el 56\% tiene un nivel alto de estándar de vida. En el método de corto plazo, se da una distribución similar, pero hay un pico tan pronunciado como en el largo plazo, aunque se llega a un valor del 43\% para el nivel de vida alto.

\newpage

\section{Conclusiones}
Hemos podido utilizar clasificadores bayesianos para poder analizar las estructuras que componen a cada método anticonceptivo. Hay dos atributos que no aportaron información relevante: si la mujer trabaja y la religión de la esposa. Por ende, no se consideran influyentes en la toma de decisión en los métodos anticonceptivos.

Para quienes no usan métodos anticonceptivos se vió que a mayor nivel educativo de la esposa mayor es la tendencia a este método. Paralelamente, ni el nivel educativo de la esposa o la cantidad de hijos parece afectar la tendencia a para este tipo.

Por  otro lado, en cuanto a los anticonceptivos de largo plazo, a mayor edad de la esposa, nivel educativo del esposo o de la esposa, mayor es la tendencia en el uso. Análogamente, cuando se tienen 2 o más hijos, o a medida que crece el estándar de vida, la proporción en el uso de dicho método también aumenta.

Los métodos a corto plazo se comportan de forma similar a los de largo plazo, aumentando en la  medida que aumentan los niveles educativos de los integrantes de la pareja, la cantidad de hijos y el estándar de vida.

\end{document}